Supercomputerul de 120 milioane de Gigabytes de la IBM

de: Radu Neagu
30 08. 2011

Am scris corect sa stiti, 120 de milioane de Gygabytes, 120 de Petabytes mai exact, pentru cine este familiar cu sistemul de masura al capacitatii din industria de IT. Acest lucru este realizabil doar prin folosirea a 200.000 de Hard Discuri clasice interconectate. Acest sistem informational, pentru ca este vorba de un sistem informational foarte complex, nu de o simpla adunatura de HDD-uri in nu stiu cate dulapuri de servere, va fi folosit in principal pentru a suporta aplicatii de genul simularilor virtuale cum sunt cele din industria meteo si de ce nu si ceva servere pentru informatiile „din cloud”nu? Sunt sigur ca rezultatul este asteptat cu sufletul la gura nu numai de catre universitatile din intreaga lume ci si de companiile din indutria de IT din intreaga lume. Ce este atat de special la acest sistem informational? Va voi explica in articolul ce urmeaza.

120 Petabytes reprezinta echivalentul a aproximativ 24 miliarde de fisiere comune de 5 MB fiecare, sa spunem poze. Cum ar fi ca orice informatie stocata pe internet sa aiba un backup pe un singur sistem de acest gen? Pare ireal? Ei bine nu este. Internetul este intre-adevar vast, foarte larg, insa nu este atat de…. „greu” sa spunem asa. Intelegeti ce vreau sa spun? Sunt foarte multe informatii insa nu sunt toate atat de mari precum credeti, ma refer aici la informatiile de pe website-uri nu la cele din calculatorul fiecaruia care sunt transmise zilnic prin programele de torrenti. Unde mai pui ca orice tip de fisier se poate comprima nu?

Super sistemul de stocare nu este chiar un proiect, o ambitie personala a lui IBM, ci este mai degraba o comanda facuta de catre un client, un client anonim bineinteles. Se precizeaza ca acesta va folosi spatiul de stocare pentru simularea fenomenelor lumii reale. La ce se refera? La fenomene atmosferice? Fenomene de comportament umane? Sincer nu stiu sa va spun, asa ca va propun sa va eliberati imaginatia si sa lasati un comentariu mai jos cu ce idei aveti despre acest lucru. Hai, stiu ca ati vazut Terminator, probabil chiar serialul, eu l-am vazut 🙂

IBM Almaden este responsabil de ducerea acestui proiect la bun sfarsit. Bruce Hillsberg este directorul acestui proiect si el insusi mentioneaza „ca acesta poate fi folosit de o multime de alte nume mari in scopuri mai comerciale. Sistemul de 120 Petabytes este o nebunie insa cine stie daca in doar cativa ani aproape toate sistemele de cloud computing se vor baza pe unul asemanator.” Doar pentru a tine organizate numele si tipurile de fisiere din acel sistem este necesara ocuparea a 2 Petabytes de spatiu de stocare.

Steve Conway, presedintele cercetarii IDC care este specializata in domeniul supercomputerelor precizeaza ca sistemul planuit de IBM va fi cu usurinta cel mai mare din lume. Pana la momentul actual recordul este detinut de un sistem de 15 Petabytes, de 8 ori mai mic ca si cel IBM, care insa nu este construit. Problemele ce necesita supercomputere pentru a prelucra datele provin din diverse domenii de cercetare, de la predictia vremii sau a cutremurelor pana la industria petrolului sau a cercetarii moleculare, spune Conway.

Pentru a crea un astfel de sistem, dupa cum am spus mai devreme nu este suficient sa aduni laolalta un numar foarte mare de HDD-uri ci sa si gandesti un ecosistem pentru acestea. Cum comunica intre ele, cat de repede comunica intre ele, cum sunt racite, cum sunt asezate, sunt elemente foarte importante. Inginerii de la IBM au dezvoltat astfel de proiecte pe care acum au sansa de a le pune in aplicare. Ca si in majoritatea sistemelor de stocare, sau centre de date cum li se mai spune, HDD-urile sunt aflate in pozitie orizontala in sertare asezate unele peste altele. Cercetatorii IBM au conceput un sistem cu o latime considerabila mai mare pentru a incapea mai multe discuri. De asemenea acestea vor fi racite implicit cu apa, existenta unor ventilatoare, multe la numar fiind exclusa, praful este unul din inamicii cei mai agresivi ai tehnologiei de calcul. Sistemul de racire pe apa va fi de ultima generatie, acoperind in totalitate unitatile de disc.

Problemele invitabile care apar in momentul in care legi foarte multe unitati de stocare in acelasi ecosistem este pierderea datelor din cauza defectiunilor hardware ale unui HDD. Probabil ca stiti ca nici un HDD nu este sigur 100%. Daca stai sa te gandesti, sunt atat de fragile… il scapi pe jos si gata s-a terminat cu informatiile de pe el, o pana de curent, gata cu informatiile, o eroare de software, din nou, gata cu informatiile. Imi mai aduc aminte si acum si rad in sinea mea de motto-ul unei a din companiile producatoare de HDD-uri „Put Your Life on It”, interesant nu? V-ati risca?

IBM va folosi din punct de vedere al sigurantei o arhitectura mai deosebita, dezvoltata tot de acestia pe parcursul timpului, care pleaca de la o idee simpla: pastrarea a mai multor copii pe mai multe discuri decat pe unul singur. Un fel de RAID Zero. Aceasta arhitectura implica insa o tactica ce ii permite unui supercomputer sa lucreze totusi la putere maxima daca unul sau mai multe discuri se defecteaza. In acel moment sistemul extrage datele de pe celelalte HDD-uri cu copii de siguranta si le copiaza pe inlocuitorul HDD-ului defect, incet in timp ce sistemul lucreaza inca la putere maxima. Daca defectiunea se extinde la mai multe discuri atunci procesul de recuperare mareste si el pasul pentru a evita pierderea de date. Hillsberg spune ca „rezultatul acestei idei poate fi un sistem care nu va pierde date nici intr-un milion de ani fara a compromite viteza de lucru a acestuia”.

Noul sistem beneficiaza de asemenea de noul sistem de fisiere GPFS dezvoltat, din nou tot de IBM, (baietilor astia le place sa construiasca tot la ei in fabrica) pentru a permite accesul si mai rapid la informatii. Conceptul din spatele sistemului de fisiere GPFS imparte copii ale mai multor fisiere pe mai multe discuri pentru ca mai multe parti ale aceluiasi fisier sa poata fi citite simultan cu o foarte mare viteza. Stiti cu totii ca procesul de copiere de pe o partitie a alta a unui HDD este cel mai greoi dintre toate. GPFS permite de asemenea unui computer sa tina evidenta multor fisiere fara sa scaneze elaborios printre toate. Astfel daca unul din acel fisiere cautate de unul din procesele care ruleaza pe sistem se afla pe un HDD care este accesat in acel moment de un alt proces al sistemului, baza de date va redirectiona programul catre un alt HDD care nu este folosit in acel moment si de pe care se pot extrage datele mai rapid.

Luna trecuta o echipa IBM, (da tot despre ei vorbim ce credeati ca o sa va povestesc acum de Apple?) a reusit sa indexeze 10 miliarde de fisiere in doar 43 de minute, spargand la propriu vechiul record cand au fost scanate un singur miliard de fisiere in 3 ore. Programele de recuperare si sistemele de fisere ca GPFS sunt foarte importante pentru un ecosistem atat de vast spune Hillsberg, pentru ca in practica ele nu trebuie doar sa fie mai mari ci si mai rapide. (Ati auzit da? Marimea nu conteaza atat de mult 🙂 HDD-urile nu devin mai rapide in raport direct cu cerinta pentru spatiul de stocare asa ca software-ul trebuie sa faca diferenta.

Conway de asemenea este de acord ca viteza de acces la date a supercomputerelor devine cruciala, chiar daca de multe ori acestea sunt comparate doare de vitezele de procesare sau de numarul de calucle efectuate pe secunda, oricum cele doua afirmatii inseamna acelasi lucru. Dispozitivele de stocare mari devin mai importante pentru ca degeaba detii un supercomputer cu putere da calcul nemaivazuta cand nu ai in primul rand unde sa stochezi informatiile pe care acesta le calculeaza si nu le poti stoca in al doilea rand la viteza la care aceste le cere sau le transmite. Smiularile devin din ce in ce mai mari si multe dintre ele sunt rezolvate prin metode iterative, adica sunt repetate de mii de ori si apoi se compara rezultatele. Cum vei compara acele rezultate daca nu ai los unde sa le stochezi? De asemenea supercomputerele se bazeaza acum si pe sistemul de „Checkpoint-uri”, acestea salveaza imagini in diferite stadii ale lucrarii pentru ca in cazul unei defectiuni, fie ea software sau hardware sa nu reia munca de la capat.  Aceste date au produs o explozie majora in piata industriei de supercomputing, ah ce imi place termenul asta.